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摘 要 : ee 以 此 

为 贺 机 ， 针 对 城市 出 租车 空 驶 率 高 和 司 来 匹配 率 低 的 问题 ， 提 出 了 一 种 网 格 化 的 出 租车 实时 动态 调度 的 增强 学 习 控 制 
方法 。 通 过 为 出 租车 提供 空 驶 巡游 的 动态 最 佳 路 线 ， 新 的 控制 方法 旨 在 提高 出 租车 的 服务 效率 ， es 

间 。 首 先 ， 以 城市 单元 网 格 为 基础 ， 明 确 出 租车 调度 的 关键 问题 ; 其 次 ， 以 空 驶 路 线 的 动态 调整 为 控制 手段 ， 建 立 调 

度 的 增强 学 习 模型 ; 最后， 给 出 求解 模型 的 Q 学 习 算 法 ， 并 通过 算 例 验证 新 调度 方法 的 有 效 性 。 研 究 表明 新 方法 可 以 

有 效 提高 司 冬 匹配 率 、 增 加 总 的 出 租车 运营 收入 、 减 少 乘 客 平 均等 车 时 间 和 减少 总 的 出 租车 空 驶 时 间 。 
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Grid-based taxi dispatching method based on reinforcement learning 


He Shengxue 
(Business School, University of Shanghai for Science & Technology, Shanghai 200093, China) 


Abstract: Highly-informed grid-based city management can supply the real time passenger information and the position 
information of taxis for taxi operation optimization. On this account, we proposed a grid-based taxi dispatching dynamic control 
method based on reinforcement learning to solve the problem of the high vacant taxis rate and the low matching rate between 
taxis and passengers. By providing the optimal cruising routes for the vacant taxis, the new control method aims to improve the 
service level of taxis and to lower the waiting time of passengers. Firstly, based on the grids of city, we clarified the key problem 
of taxi dispatching. Secondly, by using the adjustment of vacant taxi route as the control action, we formulated the reinforcement 
learning model of taxi dispatching. At last, we proposed the corresponding Q learning algorithm to solve the new model. 
Numerical example demonstrated the effectiveness of the new dispatching method. The results show that the new method can 
not only increase the match rate between taxis and passengers and the total income of operation of taxi service, but also reduce 
the average waiting time of passengers and the total travel time of vacant taxis. 
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化 的 动态 出 租车 调度 控制 方法 。 
下 面 简单 介绍 
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GIS 的 发 展 为 管理 部 门 提供 了 对 出 租车 的 实时 位 置 和 行驶 轨迹 ”网 络 规模 的 出 租车 运行 建 模 B3751、 随机 的 乘客 出 行 需求 四 
的 更 加 全 面 信息 。 过 去 的 扬 招式 出 租车 服务 也 逐渐 被 各 种 信息 。 车 电 招 系统 站、 基 
平台 的 APP 服务 所 蔡 代 。 上 述 变 化 为 出 租车 公司 或 相关 管理 部 。 租 服务 中 以 及 司 乘 匹 配 过 程 分 析 B 由 四 。 上 述 研 究 的 共同 2 


租车 调度 的 相关 研究 现状 。 合 理 的 出 租车 
言 息 时 代 的 迅猛 发 展 为 交通 科学 研究 提供 了 新 的 契机 与 挑 。” 调度 可 以 有 效 减 少 出 租车 空 驶 产生 的 费用 ， 有 时 减少 的 比例 高 
战 。 大 数据 技术 的 广泛 应 用 使 得 过 去 对 出 租车 出 行 需求 的 经 验 。 ” 达 90%053。 早 期 研究 重点 关注 出 租车 的 合理 定价 和 总 体 规模 ， 
性 估计 演变 为 实时 动态 网 络 化 分 布 的 特征 分 析 与 预测 。GPS 和 ”而 当前 研究 则 涉及 出 租车 服务 系统 的 各 个 方面 。 其 中 主要 
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网 络 的 出 租车 运行 加、 需求 响应 式 出 
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门 提供 了 进一步 优化 系统 运作 的 机 遇 。 如 何 有 效 利 用 实时 车 辆 ， 均 假 设 空 载 出 租车 的 运行 满足 网 络 均衡 、 出 行 需求 信息 事先 已 
信息 和 乘客 的 出 行 需求 分 布 实现 出 租车 的 实时 调度 优化 业 ” 知 ， 并 且 出 租车 巡游 速度 给 定 。 在 均衡 条 件 下 ， 每 一 辆 空 
已 成 为 出 租车 企业 面 对 的 首要 技术 问题 。 以 网 格 化 城市 管理 为 ” 出 租车 选择 最 近 的 可 获得 最 大 收益 的 区 域 作为 行驶 目的 地 
托 ， 本 文 提出 基于 网 格 化 出 行 需求 信息 更 新 和 出 租车 路 线 优 ” 有 出 租车 能 通过 单方 面 改变 空 载 行驶 路 线 获 得 更 高 收益 。 上 
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录用 稿 何 胜 学 : 基于 增强 学 习 的 网 格 化 出 租车 调度 方法 
研究 较 少 考虑 动态 变化 的 出 行 需求 和 路 网 实时 交通 状态 的 影响 ， 等 于 1,2-1ya。 
因此 很 难 满足 当前 高 度 信息 化 出 租车 市 场 发 展 的 需要 。 区 表示 乘客 了 的 坐车 时 间 。 当 有 出 租车 满足 其 需求 时 ， 友 

随 着 出 租车 叫 车 APP 的 大 量 涌现 , 出 租车 调度 在 提高 司 乘 。 等 于 1,3-1,2。 
匹配 率 方面 变 得 越 来 越 重 要 Hal。 针 对 出 租车 调度 优化 问题 ， 研 d, 表示 乘客 p 的 起 点 与 终点 之 间 的 乘 车 距离 。 

究 者 分 别 从 车 辆 路 径 问 题 (vehicle routing problem,VRP)04-19 和 7. 表示 出 租车 v 的 状态 。 当 该 车 有 乘客 乘坐 时 ，7, 取 值 为 
两 分 图 匹配 问题 (bipartite graph matching problem,BGMP ) [217,18] 1; 否则 ， 为 0。 

角度 出 发 进行 建 模 研究 。 一 般 而 言 , 基于 VRP 的 研究 为 每 一 辆 8, 表示 出 租车 v 的 标记 网 格 。 当 该 车 有 乘客 p 乘坐 时 ，g， 
出 租车 分 配 一 系列 的 乘客 ; 而 基于 BGMP 的 研究 遵循 就 近 原则 。” 取 值 为 g8?; 否则 ， 为 出 租车 v 的 实际 所 在 网 格 。 

匹配 出 租车 和 乘客 。 上 述 研究 共同 的 不 足 是 对 出 租车 运行 时 间 1 表示 出 租车 v 的 等 待 激活 时 间 ， 即 距离 该 车 下 次 被 实施 
的 随机 性 和 乘客 出 行 需求 的 随机 性 的 考虑 不 足 ， 因 此 实用 性 不 “调度 的 时 间 间 隔 长 度 。 当 该 车 有 乘客 p 乘坐 时 ，1, 表示 距离 网 
强 。 格 g2 的 行程 时 间 ， 否 则 ，1, 的 值 为 0。 

针对 上 述 的 现 有 研究 不 足 ， 本 文 从 四 方面 进行 了 改进 ，a) G,, 表示 从 网 格 g 出 发 ， 在 n 个 时 间 步 长 7 内， 一 辆 出 租 
通过 定义 城市 的 网 格 化 区 块 图 ， 依 据 网 格 的 乘客 出 行 大 数据 ”车 可 以 达到 的 网 格 集合 ， 即 网 格 g 的 n 级 邻 域 。 

(可 从 叫 车 APP 平台 和 实际 调查 得 到 ) 建 立 各 网 格 的 出 行 率 动态 P.(k) 表示 网 格 g 内 在 时 刻 如 等 待 出 租车 的 乘客 集合 ， 

时 间 分 布 和 目的 地 选择 率 。 通 过 上 述 数据 在 控制 方法 实施 中 预 。 ns(k) 表示 集合 PB.(k) 中 的 乘客 总 数 ， 

测 需 求 ， 决 策 空 驶 出 租车 路 线 。 实 际 的 出 行 需求 也 可 通过 实际 Vi(k) 表示 时 刻 kT 在 网 格 g 内 空 驶 的 出 租车 集合 ， 

的 系统 状态 变量 体现 ， 并 为 调度 方法 所 利用 ; b) 为 了 更 好 地 体 严 va(6 表示 六 (O 中 的 出 租车 总 数 。 

现实 时 交通 路 网 的 交通 状态 对 出 租车 巡游 速度 的 影响 ， 新 控制 WW(k) 表示 时 刻 kT 以 网 格 8 为 目的 地 载 客 行驶 的 出 租车 

方法 可 以 在 各 个 控制 时 刻 利用 实时 路 况 信息 和 当前 的 出 租车 。” 集合 ，76wv2(k) 表示 人 风 ( 中 的 出 租车 总 数 。 

GPS 位 置 更 新 达到 目的 地 的 时 间 ( 可 通过 重新 计算 最 短路 径 实 cm 表示 出 租车 的 起 步 价格 。 

现 )， 从 而 实现 对 出 租车 巡游 速度 随机 特征 的 把 控 , 提升 现 有 调 c 表示 超出 起 步 距 离 d。 后 ,出 租车 每 公里 的 单价 。 

度 系统 的 可 靠 性 ; c) 新 的 调度 方法 以 出 租车 系统 运行 的 仿真 模 7 表示 乘客 在 起 点 的 最 长 可 接受 等 车 时 间 。 

型 为 基础 ， 使 得 系统 的 状态 演变 更 加 细致 ， 控 制 行为 的 选择 更 。 1.2 网 格 化 出 租车 调度 思想 

加 准确 。 例 如 ， 对 每 个 乘客 旅行 过 程 的 各 个 关键 时 间 点 的 精确 图 1 给 出 了 一 个 城市 网 格 化 的 示意 图 .乘客 p 从 其 起 点 g? 

述 ; d) 以 增强 学 习 理 论 为 基础 ， 新 的 控制 方法 可 以 有 效 地 处 ”出 发 沿 虚线 路 径 乘 坐 出 租车 达到 目的 地 g? 。 任 意 乘客 的 乘 车 

理 线 上 线 下 的 优化 学 习 ， 并 可 以 根据 系统 的 各 种 外 在 变化 ， 如 “路 线 将 由 调度 系统 通过 最 短路 径 搜索 算法 得 到 。 网 格 g 的 1 级 

突 增 的 出 行 需求 ， 适 应 性 地 作出 调整 。 邻 域 有 两 种 选择 方式 。 一 种 是 由 与 其 紧邻 的 上 下 左右 4 个 网 格 
| 与 其 自身 构成 ， 另 一 种 则 进一步 包括 与 其 4 个 角 相 接 的 4 个 对 

Li 角 网 格 。 网 格 的 2 级 邻 域 则 由 其 1 级 邻 域 包 含 的 所 有 网 格 的 1 

1.1 基本 参 变量 级 邻 域 构成 。 第 一 种 选择 方式 得 到 的 邻 域 称 为 基础 型 邻 域 ， 第 

表示 离散 时 间 步 长 , 即 实施 调度 控制 的 时 间 间 隔 。 二 种 选择 方式 得 到 的 邻 域 称 为 扩展 型 邻 域 。 在 算 例 分 析 时 ， 本 

k 表示 时 间 分 段 标 记 ，k =0,1,.….,K。+t=kT 表示 实施 调度 。 文 将 比较 两 种 邻 域 构成 方法 对 结果 的 影响 。 
控制 的 一 个 时 间 点 ， 是 实施 调度 控制 的 时 间 范 围 。 

尸 表示 所 有 乘客 集合 ,pe P 表示 一 个 典型 的 乘客 。 允 十 -于 -和 -十 ; 

V 表示 所 有 出 租车 集合 ,veV 表示 一 辆 典型 的 出 租车 。 出 

G 表示 所 有 单元 网 格 的 集合 , g s G 表示 一 个 典型 的 网 格 。 J | 

7 表示 网 格 8 在 一 个 时 间 分 段 内 的 乘客 生成 率 。 gs? 

x, 表示 在 网 格 8 内 生成 的 一 个 乘客 选择 另 一 网 格 h 作为 
其 目的 地 的 概率 。 

a 、 图 1 城市 网 格 化 图 

8; 表示 乘客 DP 的 出 发 网 格 , 即 起 点 。 

8? 表示 乘客 Pp 的 目的 地 网 格 , 即 终点 。 需要 区 分 两 种 乘客 生成 方式 。 实 际 应 用 时 ， 当 前 乘客 的 信 

1 表示 乘客 了 的 生成 时 刻 ， 即 该 乘客 利用 APP 请 求 服务 ” 息 完全 由 相应 APP 平台 提供 ; 而 未 来 的 乘客 则 由 历史 数据 预测 
的 时 间 。 得 到 。 在 算 例 分 析 部 分 ， 本 文通 过 给 定 的 网 格 乘客 生成 率 y, 和 

1, ,表示 乘客 P 在 其 出 发 网 格 的 登 车 时 刻 。 的 地 分 布 概 率 x, ， 来 仿真 实现 当前 乘客 信息 和 对 未 来 乘客 信 

,3 表示 乘客 DP 到 达 目 的 地 时 的 下 车 时 刻 。 息 的 预测 。 具体 操作 可 分 三 步 。 首 先 依 据 y, 随机 生成 当前 时 间 

”表示 乘客 P 的 等 车 时 间 。 当 有 出 租车 满足 其 需求 时 , 地 。 ”阶段 的 乘客 :然后 根据 x 利用 轮 盘 赌 规则 确定 每 个 新 乘客 的 
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的 地 ; 最 后 利 月 


最 短路 搜索 算法 确定 乘客 的 乘 车 路 线 。 


策 。 设 当前 空 载 出 租车 "所 在 
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于 增强 


v 合 作 期 刊 
习 的 网 格 化 
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网 格 g 的 1 级 邻 域 为 G,， 。 那 么 


当 一 辆 空 驶 出 租车 * 与 同一 网 格 内 的 乘客 p 匹配 后 ， 出 租 。” v 可 以 选择 G,, 中 的 任意 网 格 作 为 (x+DT 时 刻 的 目的 地 。 令 
车 将 按照 乘客 的 乘 车 路 线 行驶 。 出 租车 的 状态 w,、g, 和 + 随 之 。 V(D={v|veV,m,(k)=0}。 对 于 veV(k)， 其 选择 的 下 一 控制 
更 新 。 在 任意 给 定 的 时 间 KT， 同一 网 格 内 的 等 竺 乘客 与 未 载 客 时 刻 (kx+DT 的 目的 地 网 格 设 为 h(x)。 那 么 由 所 有 及 (k)， 
出 租车 的 匹配 遵循 如 下 两 原则 。 乘 客 按照 等 待 时 间 长 短 排序 ， vv eV(k) 构成 的 网 格 向 量 就 是 对 应 当前 时 刻 和 的 控制 行为 ， 
排除 等 待 时 间 超过 7 的 乘客 。 排 序 后 的 乘客 等 待 时 间 越 长 越 早 。” 表示 为 a(k) 。 显然 当 集 合 V(k) 包含 的 元 素 较 多 时 ，a( 的 可 行 
得 到 服务 。 假 设 所 有 出 租车 同 质 ， 在 匹配 中 无 优先 权 问 题 。 匹 或 A(k) 将 非常 庞大 。 基 于 增强 学 习 的 调度 控制 目的 就 是 在 每 个 
配 完成 后 更 新 各 个 网 格 的 特征 P(K) 、 肥 (和风 (O 。 当 控制 时 刻 选 取 合 理 的 控制 行为 ， 从 而 实现 系统 时 空 上 的 整体 优 
d, > do 时 乘客 p 的 付费 为 c, =co+5(d, -do); 否则 , 乘客 jp 的 化 。 
付费 为 cl。 因为 假定 出 租车 载 客 的 行驶 时 间 会 受到 实际 路 网 系统 运行 中 伴随 的 随机 或 不 确定 因素 被 称 为 增强 学 习 的 控 
交通 状态 的 影响 , 因此 实际 应 用 时 7 应 当 根据 GPS 提供 的 车 辆 。” 制 信息 。 出 租车 调度 中 主要 存在 两 种 不 确定 性 因素 。 一 种 是 单 
位 置 和 交通 状态 不 断 调整 。 在 每 一 控制 时 间 点 KT， 根据 载 客车 ” 元 网 格 中 乘客 生成 的 随机 性 ， 另 一 种 是 出 租车 载 客 行程 时 间 的 
辆 运行 过 程 中 GPS 提供 的 车 辆 位 置 和 网 络 中 交通 状况 , 以 出 租 。” ”不 确定 性 。 前 者 在 模型 中 由 乘客 生成 率 y, 和 目的 地 的 分 布 概 率 
车 的 当前 位 置 为 起 点 ， 以 所 载 乘客 的 目的 地 为 终点 ， 计 算 车 辆 7,; 确定 ， 而 后 者 由 具有 随机 特征 的 出 租车 v 的 等 待 激活 时 间 
的 最 佳 行 驶 路 线 ， 并 更 新 车 辆 预期 抵达 目的 地 的 时 间 ， 即 1。 ,来 体现 。 但 为 了 表述 方便 ， 将 上 述 随机 因素 用 抽象 向 量 A 表 
在 随后 的 算 例 分 析 中 ， 为 了 模拟 上 述 动态 调整 过 程 ， 本 文 假设 示 。 向 量 A 就 是 系统 所 需 的 控制 信息 。 
和 为 随机 变量 。 根据 出 租车 v 所 载 乘客 p 的 d, 大 小 对 4, 的 大 小 在 每 一 个 控制 时 间 点 ， 控 制 系 统 需要 基于 系统 当前 的 状态 
做 随机 性 处 理 。 具 体 做 法 为 设 定 一 个 单位 距离 的 行驶 时 间 随 机 ”和 相关 的 控制 信息 确定 最 佳 的 控制 行为 。 系 统 的 状态 变量 就 是 
误差 量 x 服从 正 态 分布 n(0,4) ， 且 车 辆 行驶 各 路 段 的 行程 时 间 组 描述 系统 给 定时 刻 状 态 的 特征 向 量 。 全 面 细致 地 描述 出 租 
相互 独立 。 那 么 距离 d 的 随机 时 间 误 差 x, 满足 正 态 分 布 。 车 服务 系统 需要 对 系统 大 量 的 细节 加 以 刻画 。 但 是 这 不 仅 会 造 
m(0,d0 。 假 如 车 辆 行驶 距离 d, 的 期 望 时 间 为 大 ， 那 么 ”成 状态 变量 过 于 繁琐 ， 也 会 使 随后 的 控制 行为 决策 为 繁复 的 次 
= +X,。 在 仿真 模拟 时 , 通过 为 x, 取 满 足 其 概率 分 布 的 一 个 。” 要 因素 所 困 。 因 此 本 研究 将 以 网 格 为 对 象 ， 主 要 考虑 三 个 特征 
随机 量 ， 上 有 具体 确定 1 的 值 。 量 , Bn p(k)、 novi(k) 和 n, ys(k) 。 

在 乘客 生成 和 司 乘 匹配 过 程 中 系统 的 运行 基本 是 确定 性 的 ， 恨 设 每 次 控制 行为 决策 前 ， 每 个 网 格 内 所 有 可 行 的 司 乘 匹 
而 当 可 行 的 匹配 完成 后 如 何 确定 空 载 出 租车 的 巡游 路 线 则 成 为 。” 配 均 已 完成 。 此 时 对 于 任意 网 格 gs ， 其 对 应 的 等 待 乘客 数目 
调度 系统 的 最 大 挑战 。 在 过 去 的 扬 招 式 出 租车 服务 中 ， 司 机 赁 。 76.p(k) 和 空 载 出 租车 数目 n, v1(k) 不 能 同时 为 正 。 本 文选 择 司 
个 人 经 验 确定 空 驶 巡游 路 线 。 但 是 这 种 方式 会 带 有 很 大 的 随意 “，” 乘 匹 配 完成 后 的 rw(o 、noys(k) 和 nyo(k) 作为 kT 时刻 网 格 
性 ， 往 往 造成 部 分 区 域 出 租车 数量 过 多 ， 而 部 分 区 域 的 乘客 却 g 状态 特征 。 将 所 有 网 格 在 kT 时 刻 的 状态 特征 整合 为 系统 状 
得 不 到 及 时 服务 的 情况 。 在 信息 高 度 发 达 的 今天 ， 出 租车 服务 。” 态 向 量 
的 APP 化 为 本 文 提供 了 重新 审视 该 问题 , 即 从 系统 整体 角度 考 SC ={, ng pK), ng va(k), msvaCE) (D) 
虑 优化 出 租车 的 空 驶 巡游 路 线 的 机 会 。 下 节 将 从 增强 学 习 角 度 s(k) 就 是 对 应 控制 阶段 上 的 系统 状态 变量 。 所 有 可 行 系统 
详细 分 析 该 问题 。 状态 变量 值 构成 系统 状态 空间 集合 4 。 

出 租车 调度 的 核心 是 确定 空 载 车 辆 的 巡游 路 线 ， 而 目的 则 控制 策略 指 的 是 由 系统 状态 变量 决定 控制 行为 的 一 种 决策 
是 减少 乘客 的 平均 等 车 时 间 、 提 高 司 乘 匹配 率 、 减 少 车 辆 总 的 ”函数 ， 即 任意 给 定 一 个 系统 状态 ， 依 据 控制 策略 可 得 到 对 应 的 
空 驶 时 间 和 增加 出 租车 运营 收入 。 本 研究 以 提高 司 乘 匹配 率 为 ” 唯一 控制 行为 。 将 任意 一 个 控制 策略 表示 为 x eII ， 其 中 工 为 
控制 行为 的 直接 价值 评估 指标 。 在 数值 算 例 分 析 中 将 对 上 述 乘 ”所 有 可 行 策略 集合 。 控 制 策略 的 函数 形式 可 表示 为 
客 的 平均 等 车 时 间 、 司 乘 匹配 率 、 和 车 辆 总 的 空 驶 时 间 和 出 租车 a=A"(s) 2 
运行 总 收入 进行 分 析 。 增强 学 习 模 型 的 目的 就 是 在 给 定 约束 条 件 下 确定 可 实现 一 

定 目的 的 最 佳 策略 。 本 研究 的 目的 之 一 就 是 确定 实现 提高 司 乘 

人 匹配 率 的 出 租车 空 载 巡 游 路 线 与 网 格 状态 量 之 闻 的 合理 关联 关 

出 租车 调度 系统 的 增强 学 习 (RL) 控 制 模 型 包括 五 个 主要 组 。 系 。 
成 部 分 ， 即 控制 行为 、 控 制 信息 、 状 态 变 量 、 状 态 价 值 函 数 和 对 于 任意 控制 阶段 ， 控 制 行为 一 旦 确定 必然 会 对 系统 当前 
空 制 策略 。 和 后 续 的 运行 产生 影响 。 一 般 而 言 控制 行为 的 当前 影响 较 易 度 

假设 当前 时 刻 为 条 。 当 每 一 个 网 格 可 行 的 司 乘 匹 配 完成 ” 量 ， 比 如 本 文中 空 载 车 辆 下 一 时 刻 的 目的 地 一 旦 确定 ， 随 之 增 
后 ， 可 能 会 出 现 部 分 区 域 的 乘客 需要 继续 等 待 ， 而 部 分 网 格 出 “加 的 司 乘 匹配 数 就 会 有 所 变化 。 由 于 系统 运行 环境 不 断 变化 ， 
现 空 载 的 出 租车 。 此 时 ， 需 要 对 空 载 出 租车 的 巡游 路 线 进行 决 空 制 行为 的 远 期 系统 影响 往往 难以 准确 估计 。 在 增强 学 习 中 
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| ChinaXiv 合 作 期 于 
录用 稿 何 胜 学 : 基于 增强 学 习 的 网 格 化 出 租车 调度 方法 
本 文 将 控制 行为 直接 导致 的 系统 优化 目标 的 变化 量 称 为 控制 行 ”一 状态 的 价值 函数 值 。 通 过 比较 这 些 可 能 的 后 续 状态 价值 函数 
为 的 收益 ， 对 应 的 行为 收益 函数 表示 为 f(s(k),a(k),A(k+D))。 值 ， 确 定 最 佳 控制 行为 。 与 Q 学 习 算 法 相 比 ， 利 用 状态 价值 函 

行为 收益 函 0 Me 数 来 确定 控制 行为 不 仅 繁琐 ， 而 且 系 统 状 态 转 移 所 带 来 的 计算 
段 到 阶段 -+1 系统 演变 过 程 中 可 变 为 已 知 的 随机 控制 量 也 非常 可 观 。 因 此 ， 本 文选 取 Q 学 习 算法 作为 求解 增强 学 习 
计算 收益 函数 值 的 过 程 分 四 步 。 首 先 在 当前 阶段 完成 各 个 网 格 。 模型 的 基本 算法 。 
的 所 有 可 行 司 乘 匹 配 ， 确 定 一 个 具体 控制 行为 a(k) ; 其次， 在 在 算法 中 代表 当前 阶段 的 序列 号 ， 显 然 kT 对 应 一 个 控 
已 实现 的 A(k+D 基础 上 ， 更 新 阶段 4+1 各 个 网 格 的 空 载 出 租 。 制 时 刻 。m 表示 对 系统 进行 仿真 模拟 的 序号 。 到 和 jy 分 别 是 
车 数 ， 接 着 ， 在 各 个 网 格 实现 所 有 可 能 的 等 车 乘客 与 刚刚 变 为 。 总 的 阶段 数目 和 模拟 仿真 总 次 数 。 针 对 网 格 化 出 租车 调度 优化 
空 载 的 车 辆 的 匹配 ， 最 后 在 各 网 格 实现 剩余 等 车 乘客 与 空 载 车 。” 的 Q 算法 的 求解 具体 步骤 如 下 : 
辆 的 司 乘 匹配 ， 记 录 该 类 匹配 的 总 数 ， 即 对 应 控制 行为 a(k) 的 a2) 初始 化 。 对 所 有 的 系统 状态 %， 给 出 价值 函数 Do(s ,a ) 
收益 函数 值 。 上 述 计算 的 依据 为 刚 完成 载 客 任务 的 车 辆 就 处 于 大 近似 信 内 关 人 行 汶 SACD = Dy K-l}。 令 im 
对 应 的 网 格 ， 而 其 他 的 空 载 车 辆 则 是 由 上 阶段 空 载 车 辆 经 过 路 。 =1， 并 初始 化 (Kk) 。 
线 控制 ( 即 控制 行为 a(x) 的 作用 ) 后 得 到 的 。 b) 选 择 一 个 随机 信息 的 样本 路 径 @jm 。 

合理 的 控制 决策 必须 考虑 控制 行为 对 系统 后 续 状 态 的 影响 ， co 将 下 面 操作 步骤 依 上 = 01., 开 -1 加 以 循环 迭代 : 
以 及 这 种 影响 的 时 间 衰减 性 。 因 此 选取 如 下 的 优化 目标 : (a) 利 用 & 贪 禁 规则 确定 控制 行为 。 


G) 


xell 


max B{Y [yf Cs, AT(s(k), AK+ IN) 
k=0 


其 中 ， y <1 为 折扣 因子 , 算 子 p 表示 求 变量 的 期 望 值 。 直接 求 
解 优化 问题 3) 非常 困难 ， 因 此 通常 的 做 法 是 转 而 求解 该 问题 等 
价 的 Bellman 方程 。 为 了 简化 公式 表述 ， 用 下 标 “ ”取代 变 
量 的 时 间 标 签 < [Dj ”。 设 系统 处 于 状态 s 时 的 
依据 Bellman 方程 ， 最 优 状态 价值 y*(s) 应 满足 : 

V's,) 三 到 一 As A (s,), 和 AI) 二 VV (Cs | Si A (5s.),A)] 


(4) 

下 文 将 设计 对 应 的 Q 学 习 算法 求解 上 述 问 题 。y(s) 与 Q 
函数 Q(s,a) 具有 如 下 关系 : 

V(s) = max QO(s,a). (5) 


与 V(s) 相 比 ，Q(s,a) 的 变量 维度 增加 了 一 位 ; 但 是 实际 应 
时 可 通过 比较 不 同 控制 行为 的 O(s,a) 值 更 加 方便 地 确定 最 
行为 。 问 题 的 求解 依赖 于 ofs,a) 的 具体 形式 ， 但 是 目前 不 存 
在 QO(s,a) 的 任何 具体 形式 。 因 此 需要 利用 某 种 带 有 待定 参数 g 
I 近似 函数 Oo(s,a,0) 来 蔡 代 Oo(s,a) 。 


全 


NSS 


最 常见 的 做 法 是 利用 人 工 


SG 
LT 


状态 价值 为 VCs) 。 


以 概率 s ， 空 制 行 
而 以 概率 1-s ， 2 


Nn 


攻 ACk) 中 随机 选择 行为 ww 。 


ON eargmax O” (gr, Ul, 0) 选择 行为 a” o 


ar EA(k) 
(b) 对 信息 A” :=A(@w”) 进行 取样 ， 并 计算 状态 变 
Sk SY (sx QI ? As 本 
=—f(s”, a”,A ， )+ 
(计算 和 2 m 中 | 
际 max Oo (Sp Gr 2 
Po Am-1l m jm 
(gd) 更 新 参数 《9+ 人 人 COsQk ,Aen) 二 其 中 的 控 和 


YQ -Qe ) 


Tt 
一 


市 


行为 a 可 由 se 贪 禁 规 则 确定 。 其 次 ， 基 于 更 新 后 的 参数 0 ， 


按照 下 式 计算 Q 因子 : 
QS) = 0, QO se, a D+ oN 
gd 令 m=m+1. 如 果 m<M， 转 步 又 了 b)。 
ee 


述 算 法 的 目的 可 看 做 最 小 化 g 的 通 
Wo ios 函数 z(9) 的 负 梯 度 方向 


神经 网 络 (ANN) 近 似 技术 完成 上 述 任务 。 此 时 参数 g 表示 神经 
网 络 的 联接 权重 和 节点 阔 值 0%20。 根 据 ANN 基本 理论 ， 利 用 
多 层 的 ANN 即 可 实现 对 各 种 函数 的 无 限 逼 近 。 特 别 是 当 具 体 
函数 形式 未 知 条 件 下 , ANN 的 规范 统一 结构 和 有 效 地 参数 调整 
机 制 为 研究 提供 了 一 种 便捷 有 效 函 数 近似 工 


3 ”QQ 学 习 算法 


Q 学 习 算 法 是 求解 
将 状态 价值 函数 转换 为 Q 函数 ,可 以 在 算法 执行 过 程 中 通 


增强 学 习 模 型 的 一 种 非常 有 效 算 法 09。 


VO Ga 一 CGO) 
其 中 : g 作为 


变量 , 而 Yr? 为 给 定 值 。 按 照 经 典 非 线 性 规划 理 


数 
为 


论 ， 在 自 变量 g 的 可 行 域内 ， 如 果 当 前 的 g 对 应 的 函数 值 非 
部 或 全 局 最 小 值 ， 且 步 长 足够 小 ， 目 标 函 数 zx(6) 的 值 将 沿 当 
变量 0 处 的 负 梯 度 方向 下 降 。 因 此 算法 中 的 参数 1 相当 于 沿 
行 下 降 方向 的 搜索 步 长 。 可 以 通过 试 错 法 确定 4 的 合 3 


4 ”数值 实验 
本 章 以 图 2 中 由 15 个 网 格 构 成 的 出 租车 调度 区 域 为 例 


这 


通过 

过 直接 比较 Q 函数 值 的 大 小 选取 最 佳 的 控制 行为 。 通过 和 迭 代 妆 
习 , 当 Q 函数 的 近似 形式 接近 实际 Q 函数 时 ， 上 述 的 控制 行为 
选取 变 得 更 加 有 效 。 而 利用 状态 价值 函数 确定 最 佳 控制 行为 时 ， 
必须 针对 每 一 个 可 选 行为 ， 将 系统 进行 状态 转移 ， 从 而 确定 下 


Ng 


本 文 给 出 方法 进行 验证 分 析 。15 个 网 格 的 编号 和 对 应 的 乘客 
成 率 y, 已 在 图 中 标 出 。 网 格 的 长 和 宽 均 为 1000 m。 离散 时 间 
长 了 为 100s,， 总 的 时 间 分 段 数 多 设 为 100。 出 租车 的 平均 速 


区 


四 


可 


里 取 值 。 


对 
生 
步 
度 


为 36km/hr( 即 10 m/s)。 出 租车 的 起 步 费 c, 为 14 元 ， 起步 距离 
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d, 为 3km， 而 超出 起 步 距离 后 每 公里 的 单价 ¢ 为 2.5 元 。 乘客 


在 起 点 的 最 长 可 


出 租车 总 数 为 30 辆 。 


扣 因 子 y 均 设 为 


接受 等 车 时 间 F 设 为 400s。 假 
总 的 仿真 次 数 jy 为 300 
0.5, 算法 的 步 长 1 设 为 0.01。 


了 学 习 过 程 中 的 
机 选取 的 占 比 。 


利用 已 有 经 验 进 行 控制 行为 选 
s 值 的 较 大 ， 控 制 行为 随机 选 


算法 运行 的 前 期 
是 后 期 的 最 佳 控 
算法 运行 的 前 期 


的 系统 表现 提升 09。 


了 算法 对 系统 表 


可 能 需要 更 多 的 狗 代 得 到 较 好 
制 行为 选择 会 更 有 效 。 而 当 & 
， 系 统 表现 较 好 ， 但 需要 更 多 


设 网 络 中 运行 的 
次 ， 参 数 。 和 折 
2 值 的 大 小 决定 
取 和 控制 行为 随 
取 的 几率 就 大 ， 

的 系统 表现 ， 但 
值 的 较 小 时 ， 在 
的 迭代 实现 后 期 


y 作为 目标 的 时 间 折 扣 因 
现 随 时 间 变 化 的 一 种 折 现 评价 


值 的 选择 只 是 各 


其 合理 取 值 。 上 述 


种 可 能 性 的 一 种 ， 实 际 应 用 时 


子 ， 其 大 小 反映 
I9]。 上 述 和 7 


应 通过 试 算 确定 


4 步 长 的 选择 也 只 是 一 个 示 


光 


4 的 取 值 应 当 较 
执行 初期 将 极 不 
驶 时 间 误 差 服 从 


时 ,应 通过 试 算 


确定 合理 取 值 .一 般 而 言 当 Q 
否则 ， 由 于 目标 函数 的 剧 


人 


例 ， 实 际 算法 应 
函数 值 较 大 时 ， 
有 烈 变化 ， 算 法 在 


稳定 RY。 假设 出 租车 行驶 1 公 


里 可 能 产 


生 的 行 


均值 为 0 而 标准 方差 为 20s 的 正 态 分 布 。 


1 (0.2)| 2 (0.3)| 3 (0.6) | 4 (0.2) | 5 (0.5) 


6 (0.2)| 7 (0.9)| 8 (0.4) | 9 (0.6) | 10(0.4) 


11(0.2) | 12(0.3) | 13(0.6) | 14(0.2) | 15(0.3) 


图 2 


具有 15 个 网 格 的 调度 区 域 


为 了 使 随后 


mc 表示 总 的 司 乘 匹配 数 ，n 表示 未 得 到 


的 图 表 更 加 清晰 简洁 ， 定 义 如 
服务 


各 表示 乘客 平均 等 车 时 
Tw 表示 总 的 出 租车 空 驶 时 间 (s)。NC 表示 无 控 


车 运营 ; CBN 表 


扩展 型 邻 域 的 调 


示 基 于 基础 型 邻 域 的 调度 控制 ; 


度 控 制 。 


< 


的 符号 变量 。 


务 而 损失 的 乘客 数 ，; 
辣 (s); /表示 总 的 出 租车 运营 收入 (元 ); 


制 情景 下 的 出 租 
CEN 表示 基于 


1 不 同 控制 情景 下 的 优化 结果 比较 


控制 方法 We ns 如 了 


必 


NO 


NC 
CBN 
CEN 
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845 139 130.3 12725 


983 53 105.9 14393 


69400 
47200 
54200 


表 1 给 出 了 
表现 。 


空 制 情景 


三 种 不 同 控制 方 


式 下 ， 出 租车 


服务 系统 的 运行 


下 的 数据 来 自 系统 在 300 次 仿真 后 ， 排 除 = 贪 


焚 机 制 而 仅 采 / 


j 最 佳 控制 行为 的 运 货 


结果 。 可 以 看 出 ， 


与 无 控 


制 情景 相 比 ， 调 
扩展 型 邻 域 的 调 
为 优化 的 直接 目 


度 控制 可 以 明显 改善 系统 的 运行 


度 在 多 个 方面 优 于 基于 基础 型 


标 是 增加 司 乘 的 匹配 数 ， 因 此 基于 扩展 型 邻 域 


效率 ;而 基于 
邻 域 的 调度 。 因 


的 调度 需要 出 租 
以 解释 为 什么 表 


三 
[6 。 


H 
1 


以 基 丰 


EF 


车 空 驶 更 多 的 时 间 实 现 更 多 的 


司 乘 匹 配 。 这 可 


1 中 CEN 的 总 出 租车 空 驶 时 间 Tvo 比 CBN 要 


型 邻 域 控制 CBN 为 例 ， 


分 析 随 着 仿真 次 数 的 


增加 各 个 系统 运 和 


随 仿真 次 数 增加 的 变化 情况 。 随 着 仿 
司 乘 匹 配 数 呈现 


De 2 信 禁 机 制 选择 控制 


| hinaX iv 合作 期 
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了 指标 的 变化 情况 。 
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图 3 司 乘 匹配 数 的 变化 情况 
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图 4 未 得 到 服务 而 损失 的 乘客 数 的 变化 情况 


图 3 和 4 分 别 给 出 了 司 乘 匹 配 数 ,和 损失 的 乘客 数 
次 数 的 增加 ， 可 以 看 出 
出 上 升 的 趋势 , 而 损失 的 乘客 数 ,呈现 下 
。 而 具体 数值 的 随机 波动 变化 源 于 系统 本 身 的 随机 特征 
行为 的 随机 性 。 


PF 


妈 5 中 乘客 平均 等 车 时 间 书 , 随 着 仿真 次 数 的 增加 在 130 秒 


加 趋势 。 
出 明显 的 减少 趋势 。 
相对 应 。 


算 


上 下 随机 波动 。 
平均 等 车 时 间 。 但 是 本 文 发 现 利 用 扩展 型 邻 域 可 以 降低 平均 等 
车 时 间 ， 


这 说 明 仿真 次 数 的 增加 并 不 能 明显 改善 乘客 的 


而 控制 


条 件 下 平均 等 车 时 间 均 低 于 无 控制 的 情景 。 


乘客 平均 等 车 时 间 (s) 


50 100 150 200 250 300 
仿真 次 数 


图 5 乘客 平均 等 车 时 间 如 的 变化 (时 间 单位 : 秒 ) 


6 中 的 总 运营 收入 随 着 仿真 次 数 的 增加 呈现 出 明显 的 增 
图 7 中 总 的 出 租车 空 驶 时 间 随 着 仿真 次 数 的 增加 呈现 
这 些 变化 与 图 3 中 司 乘 匹 配 数 的 增加 趋势 


例 求解 的 计算 机 程序 用 Java 1.8.0 编写 ,在 NetBeans IDE 


8.0.2 开 
3120M CPU。 


发 环境 下 实现 ， 所 用 计算 机 处 理 器 为 Pntel@ Core i3- 
两 种 控制 方式 下 完成 300 次 系统 仿真 的 计算 时 间 


录用 稿 


均 为 14s， 而 完成 一 次 仿真 的 计算 时 间 约 为 0.04s。 


1.25 
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图 6 总 的 出 租车 运营 收入 了 的 变化 (单位 :元 ) 


总 的 空 驶 时 间 (s) 


0 50 100 150 200 250 300 
仿真 次 数 


图 7 总 的 出 租车 空 驶 时 间 To 的 变化 (单位 :s) 


在 网 格 化 城市 管理 的 背景 下 ， 针 对 网 格 化 的 出 租车 出 行 需 
求 动态 数据 和 网 格 化 的 出 租车 路 线 规划 ， 提 出 了 一 种 网 络 出 租 
车 调度 的 增强 学 习 控制 方法 。 新 的 控制 方法 可 以 有 效 处 理 系 统 
的 随机 动态 特征 (包括 随机 的 行程 时 间 和 出 行 需求 )， 通 过 无 监 
督 的 自 适应 式 强化 学 习 实现 出 租车 的 空 车 路 线 调度 。 通 过 定义 
网 格 和 网 格 邻 域 概念 ， 使 得 在 实施 控制 方法 时 可 有 效 利用 基于 
格 大 数据 的 出 租车 出 行 需求 特征 与 需求 预测 。 动 态 的 路 线 调 
整 过 程 也 使 得 利用 实时 的 车 辆 定位 信息 成 为 现实 。 在 出 租车 服 
务 系统 运行 表现 上 ， 新 的 调度 控制 方法 不 仅 可 以 增加 司 乘 匹配 
数 和 降低 乘客 流失 风险 ， 而 且 可 以 增加 出 租车 总 的 运营 收入 和 
降低 乘客 平均 等 车 时 间 。 

本 文 研究 可 从 多 个 方面 加 以 拓展 ， 包 括 考虑 出 租车 的 不 同 
类 别 、 乘 客 的 优先 级 别 、 网 格 划 分 的 不 同方 式 以 及 实际 道路 交 
通 状态 的 实时 影响 分 析 等 。 同 时 研究 方法 的 有 效 性 还 有 待 进 
步 的 实证 分 析 改 进 。 
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